Trích xuất dữ liệu là gì? Các nghiên cứu khoa học liên quan

Trích xuất dữ liệu là quá trình thu thập và lấy thông tin từ nhiều nguồn khác nhau để đưa vào hệ thống phân tích hoặc lưu trữ mà vẫn bảo đảm tính toàn vẹn dữ liệu. Khái niệm này mô tả bước đầu tiên trong quy trình ETL, cho phép chuẩn hóa và hợp nhất dữ liệu nhằm phục vụ phân tích, tự động hóa và ra quyết định dựa trên dữ liệu.

Khái niệm về trích xuất dữ liệu

Trích xuất dữ liệu (data extraction) là quá trình thu thập và lấy ra thông tin từ các nguồn dữ liệu khác nhau như cơ sở dữ liệu, trang web, tệp văn bản, API, cảm biến hoặc hệ thống phần mềm nhằm phục vụ phân tích, lưu trữ hoặc xử lý tiếp theo. Đây là bước đầu tiên trong chuỗi ETL (Extract – Transform – Load), một quy trình trọng yếu trong khoa học dữ liệu và quản trị dữ liệu doanh nghiệp. Mục tiêu chính của trích xuất dữ liệu là chuyển dữ liệu từ môi trường nguồn sang môi trường đích mà không làm suy giảm chất lượng hoặc mất tính toàn vẹn của dữ liệu.

Ở góc độ kỹ thuật, trích xuất dữ liệu có thể diễn ra dưới nhiều dạng khác nhau tùy theo cấu trúc và định dạng dữ liệu. Đối với dữ liệu có cấu trúc như SQL, việc trích xuất dựa trên các truy vấn được tối ưu hóa để đảm bảo tốc độ và tính ổn định. Với dữ liệu phi cấu trúc như văn bản, hình ảnh hoặc trang web, các kỹ thuật như phân tích nội dung (content parsing), web scraping hoặc thị giác máy tính được sử dụng. Theo thông tin từ IBM Data & AI, trích xuất dữ liệu chính là nền tảng để xây dựng hệ thống phân tích dữ liệu ở quy mô lớn.

Khái niệm này đặc biệt quan trọng trong bối cảnh dữ liệu tăng trưởng theo cấp số nhân. Các tổ chức cần trích xuất dữ liệu từ nhiều hệ thống khác nhau để tích hợp thành nguồn dữ liệu thống nhất. Điều này cho phép tăng tính minh bạch thông tin, hỗ trợ ra quyết định và thúc đẩy ứng dụng trí tuệ nhân tạo vào vận hành. Các đặc điểm chính của trích xuất dữ liệu có thể tổng hợp như sau:

  • Là bước nền trong quy trình ETL và quản trị dữ liệu.
  • Yêu cầu xử lý đa dạng loại dữ liệu: cấu trúc, bán cấu trúc và phi cấu trúc.
  • Đòi hỏi kỹ thuật tự động hóa để đảm bảo tốc độ và giảm lỗi thủ công.

Bảng dưới đây mô tả các mục tiêu chính của hoạt động trích xuất dữ liệu:

Mục tiêu Mô tả
Thu thập dữ liệu Thu thập thông tin từ nhiều nguồn khác nhau
Tích hợp dữ liệu Chuẩn hóa và đưa dữ liệu về nền tảng phân tích chung
Tối ưu vận hành Hỗ trợ doanh nghiệp đưa ra quyết định dựa trên dữ liệu

Các nguồn dữ liệu phổ biến cần trích xuất

Các nguồn dữ liệu phục vụ trích xuất rất đa dạng, bao gồm dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc. Dữ liệu có cấu trúc thường xuất hiện trong các hệ thống cơ sở dữ liệu quan hệ (SQL) như MySQL, PostgreSQL hoặc Oracle, nơi dữ liệu được tổ chức thành bảng và cột rõ ràng. Dữ liệu bán cấu trúc như JSON, XML hoặc log hệ thống cần các kỹ thuật phân tích định dạng để trích xuất chính xác. Đối với dữ liệu phi cấu trúc như văn bản, hình ảnh hoặc video, các phương pháp xử lý ngôn ngữ tự nhiên (NLP) hoặc thị giác máy tính (CV) có thể được áp dụng.

Trong môi trường doanh nghiệp, dữ liệu thường phân tán trong nhiều hệ thống khác nhau như CRM, ERP, phần mềm kế toán, nền tảng thương mại điện tử và các công cụ marketing. Điều này tạo ra nhu cầu cao về hoạt động trích xuất dữ liệu nhằm tích hợp thông tin vào một kho dữ liệu (data warehouse) thống nhất. Các hệ thống cloud hiện đại như Google Cloud Solutions đề xuất sử dụng API hoặc pipeline tự động hóa để đảm bảo dữ liệu luôn được cập nhật theo thời gian thực.

Một số nguồn dữ liệu phổ biến:

  • Cơ sở dữ liệu SQL và NoSQL.
  • Trang web và tài liệu HTML.
  • API RESTful hoặc GraphQL.
  • Tệp log máy chủ và file văn bản.
  • Dữ liệu cảm biến IoT.

Bảng sau minh họa sự khác nhau giữa các loại nguồn dữ liệu:

Loại dữ liệu Đặc điểm Độ khó trích xuất
Dữ liệu có cấu trúc Dễ truy vấn, tổ chức rõ ràng Thấp
Dữ liệu bán cấu trúc Có định dạng nhưng không hoàn toàn cố định Trung bình
Dữ liệu phi cấu trúc Không có dạng cố định, nhiều loại nội dung Cao

Phân loại phương pháp trích xuất dữ liệu

Phương pháp trích xuất dữ liệu được phân thành ba nhóm chính: trích xuất thủ công, trích xuất bán tự động và trích xuất tự động. Trích xuất thủ công phù hợp với dữ liệu nhỏ, không thường xuyên cập nhật nhưng dễ phát sinh sai sót. Trích xuất bán tự động sử dụng các công cụ hỗ trợ như trình đọc dữ liệu hoặc phần mềm pipeline cơ bản, giúp giảm khối lượng công việc thủ công và tăng độ chính xác.

Trích xuất tự động được áp dụng trong các hệ thống lớn, nơi dữ liệu cập nhật liên tục và yêu cầu đồng bộ hóa thời gian thực. Các công cụ như ETL pipeline, crawler và API automation giúp thu thập dữ liệu hiệu quả với độ tin cậy cao. Theo khuyến nghị của Google Cloud, tự động hóa là xu hướng chủ đạo để khai thác dữ liệu quy mô lớn.

Ngoài cách phân loại theo mức độ tự động hóa, trích xuất dữ liệu còn được chia theo chiến lược: trích xuất toàn phần (full extraction), trích xuất gia tăng (incremental extraction) và trích xuất theo thay đổi (change data capture – CDC). CDC đặc biệt quan trọng trong các hệ thống giao dịch, nơi mỗi thay đổi cần được ghi nhận chính xác.

Các mô hình lý thuyết trong trích xuất dữ liệu

Các mô hình lý thuyết được ứng dụng nhằm tối ưu hóa hiệu suất và dự đoán chi phí của quá trình trích xuất dữ liệu. Mô hình dựa trên cấu trúc dữ liệu giúp xác định chiến lược truy cập tối ưu, trong khi mô hình truy vấn thông minh (intelligent query model) giảm tải truy vấn bằng cách chọn đường dẫn truy vấn hiệu quả nhất. Các mô hình này đặc biệt quan trọng khi xử lý dữ liệu ở quy mô lớn.

Một số mô hình toán học được sử dụng để tính toán chi phí hoặc thời gian trích xuất dựa trên các biến như khối lượng dữ liệu, tần suất cập nhật và độ phức tạp của nguồn. Công thức điển hình:

C=αV+βF+γT C = \alpha V + \beta F + \gamma T

Trong đó C là chi phí trích xuất, V là khối lượng dữ liệu, F là tần suất cập nhật và T là độ phức tạp của nguồn dữ liệu. Các nền tảng như AWS Big Data sử dụng mô hình này để tối ưu hóa pipeline ETL nhằm tăng tốc độ xử lý và giảm chi phí vận hành.

Ứng dụng của trích xuất dữ liệu trong doanh nghiệp

Trích xuất dữ liệu giữ vai trò trung tâm trong việc vận hành và ra quyết định của hầu hết các tổ chức hiện đại. Trong các hệ thống phân tích kinh doanh (Business Intelligence – BI), dữ liệu phải được thu thập từ nhiều bộ phận như bán hàng, tài chính, vận hành và marketing, sau đó hợp nhất thành kho dữ liệu để phục vụ phân tích. Quá trình này chỉ trở nên khả thi khi bước trích xuất dữ liệu được thiết kế hiệu quả và chính xác. Nhờ đó, doanh nghiệp có thể tạo ra các báo cáo theo thời gian thực, đánh giá xu hướng thị trường và tối ưu hóa chiến lược phát triển.

Trong lĩnh vực học máy và trí tuệ nhân tạo, trích xuất dữ liệu đóng vai trò nền tảng để xây dựng tập dữ liệu huấn luyện. Các mô hình dự đoán như phân loại khách hàng, dự báo nhu cầu hay phát hiện gian lận đều cần dữ liệu có chất lượng cao, đa dạng và được cập nhật thường xuyên. Việc trích xuất dữ liệu từ API, hệ thống giao dịch hoặc cảm biến giúp tạo nên tập dữ liệu đáp ứng yêu cầu kỹ thuật của mô hình. Theo phân tích của IBM Analytics, chất lượng của trích xuất dữ liệu ảnh hưởng trực tiếp đến độ chính xác của các mô hình AI.

Trong vận hành doanh nghiệp, trích xuất dữ liệu giúp tự động hóa quy trình, giảm nâng cao hiệu suất và giảm lỗi thủ công. Chẳng hạn, doanh nghiệp bán lẻ sử dụng trích xuất dữ liệu từ POS (Point of Sale) để tối ưu tồn kho, trong khi ngành logistics trích xuất dữ liệu từ cảm biến GPS để theo dõi vận chuyển. Các hệ thống như Google BigQuery hỗ trợ xử lý tập dữ liệu lớn từ nhiều nguồn khác nhau, cho phép doanh nghiệp phân tích nhanh và ra quyết định chính xác hơn.

Một số ứng dụng tiêu biểu:

  • Xây dựng kho dữ liệu và hệ thống phân tích BI.
  • Tạo tập dữ liệu huấn luyện cho học máy.
  • Tối ưu hóa vận hành thông qua dữ liệu thời gian thực.
  • Tự động hóa báo cáo và kiểm tra hiệu suất.

Thách thức trong trích xuất dữ liệu

Dù mang lại nhiều giá trị, trích xuất dữ liệu cũng gặp không ít thách thức. Một trong những vấn đề lớn nhất là sự không đồng nhất của nguồn dữ liệu. Khi dữ liệu đến từ nhiều hệ thống sử dụng cấu trúc khác nhau, việc chuyển đổi và hợp nhất trở thành gánh nặng kỹ thuật. Dữ liệu phi cấu trúc như hình ảnh hoặc văn bản tự do đòi hỏi nhiều bước xử lý trước khi có thể đưa vào phân tích. Càng nhiều nguồn dữ liệu thì quy trình càng phức tạp.

Khối lượng dữ liệu lớn (big data) là một thách thức quan trọng khác. Doanh nghiệp phải đảm bảo hệ thống trích xuất có khả năng mở rộng, chịu tải và duy trì độ chính xác cao ngay cả khi xử lý hàng tỷ bản ghi mỗi ngày. Hiệu suất của pipeline phụ thuộc vào hạ tầng mạng, tài nguyên tính toán và khả năng tối ưu hóa truy vấn. Theo phân tích của AWS Big Data, khả năng mở rộng là yếu tố quyết định trong hệ thống ETL hiện đại.

Ngoài ra, trích xuất dữ liệu từ trang web (web scraping) còn gặp rào cản pháp lý và kỹ thuật. Một số trang web áp dụng bảo vệ chống bot, captcha hoặc giới hạn truy cập, khiến việc thu thập dữ liệu cần tuân thủ chính sách sử dụng và luật bản quyền. Thách thức về bảo mật cũng đáng kể, khi dữ liệu chứa thông tin nhạy cảm phải được xử lý đúng cách để tránh vi phạm quyền riêng tư.

Các thách thức chính:

  • Dữ liệu không đồng nhất và khó chuẩn hóa.
  • Khối lượng dữ liệu lớn và yêu cầu mở rộng.
  • Tuân thủ pháp lý và bảo mật dữ liệu.
  • Độ phức tạp khi thao tác dữ liệu phi cấu trúc.

Công cụ và kỹ thuật trích xuất dữ liệu

Các công cụ trích xuất dữ liệu ngày càng đa dạng, đáp ứng nhu cầu của từng loại dự án. Trong lĩnh vực doanh nghiệp, các nền tảng ETL như Talend, Informatica và Apache NiFi được sử dụng phổ biến để xây dựng pipeline ổn định. Những công cụ này hỗ trợ tích hợp đa nguồn dữ liệu, tự động hóa quy trình và theo dõi hiệu suất trong thời gian thực. Chúng phù hợp với môi trường yêu cầu độ tin cậy cao và quy mô lớn.

Trong các dự án web scraping hoặc thu thập dữ liệu không cấu trúc, các thư viện như Scrapy, BeautifulSoup, Selenium và Puppeteer được sử dụng rộng rãi. Scrapy cung cấp khả năng thu thập dữ liệu tốc độ cao, trong khi Selenium phù hợp với các trang web tương tác phức tạp. Đối với nguồn dữ liệu thời gian thực, các công nghệ streaming như Apache Kafka hoặc AWS Kinesis đóng vai trò quan trọng trong việc xử lý liên tục hàng nghìn sự kiện mỗi giây.

Bảng bên dưới tổng hợp các công cụ phổ biến:

Công cụ Loại Ưu điểm
Apache NiFi ETL Tự động hóa mạnh, dễ quan sát luồng dữ liệu
Scrapy Web scraping Tốc độ cao, mở rộng tốt
Selenium Web automation Phù hợp trang web động
AWS Glue ETL cloud Tích hợp tốt với hệ sinh thái AWS

Bảo mật và tuân thủ pháp lý trong trích xuất dữ liệu

Bảo mật dữ liệu là yếu tố bắt buộc trong bất kỳ hệ thống trích xuất nào. Khi dữ liệu được di chuyển từ nguồn sang đích, nguy cơ rò rỉ hoặc truy cập trái phép tăng lên. Doanh nghiệp phải triển khai các biện pháp như mã hóa dữ liệu khi truyền và khi lưu trữ, phân quyền truy cập theo vai trò và theo dõi hoạt động bất thường. Các tiêu chuẩn như ISO/IEC 27001 đưa ra khung kiểm soát an ninh thông tin giúp giảm thiểu rủi ro.

Các quy định pháp lý như GDPR (Liên minh Châu Âu) và HIPAA (Hoa Kỳ) yêu cầu tổ chức phải minh bạch về mục đích sử dụng dữ liệu, bảo vệ thông tin nhạy cảm và đảm bảo quyền riêng tư cá nhân. Các vi phạm có thể dẫn đến phạt tiền lớn và ảnh hưởng uy tín doanh nghiệp. Vì vậy, trích xuất dữ liệu phải đi đôi với tuân thủ pháp lý, đặc biệt khi làm việc với dữ liệu khách hàng hoặc dữ liệu sức khỏe.

Một số nguyên tắc bảo mật quan trọng:

  • Mã hóa end-to-end.
  • Kiểm soát truy cập theo vai trò (RBAC).
  • Ghi nhật ký và theo dõi hành vi bất thường.
  • Tuân thủ tiêu chuẩn quốc tế và luật địa phương.

Xu hướng nghiên cứu và phát triển

Các xu hướng mới trong trích xuất dữ liệu tập trung vào tự động hóa, trí tuệ nhân tạo và tối ưu hóa pipeline. Công nghệ học máy giúp mô hình nhận diện cấu trúc dữ liệu tốt hơn, đặc biệt trong dữ liệu phi cấu trúc. Các công cụ trích xuất thế hệ mới như trích xuất thông minh (intelligent extraction) có khả năng hiểu ngữ cảnh, phân loại nội dung và làm sạch dữ liệu ngay trong quá trình thu thập.

Bên cạnh đó, tính năng xử lý thời gian thực (real-time streaming extraction) đang trở thành tiêu chuẩn cho các ngành yêu cầu dữ liệu liên tục như tài chính, thương mại điện tử và IoT. Các nền tảng như Google Vertex AI đang tích hợp công nghệ xử lý phân tán để tối ưu tốc độ và độ chính xác khi trích xuất dữ liệu lớn.

Sự kết hợp giữa dữ liệu lớn, điện toán đám mây và AI làm thay đổi cách doanh nghiệp khai thác và xử lý dữ liệu, mở ra các mô hình phân tích mới và cải thiện năng suất. Trích xuất dữ liệu ngày càng trở nên thông minh, tự động và bảo mật hơn.

Tài liệu tham khảo

Các bài báo, nghiên cứu, công bố khoa học về chủ đề trích xuất dữ liệu:

Về việc trích xuất mạng lưới kênh từ dữ liệu độ cao số Dịch bởi AI
Hydrological Processes - Tập 5 Số 1 - Trang 81-100 - 1991
Tóm tắtCác mạng lưới kênh với mật độ thoát nước hoặc độ phân giải tùy ý có thể được trích xuất từ dữ liệu độ cao số. Tuy nhiên, để các mạng lưới từ dữ liệu độ cao số trở nên hữu ích, chúng phải được trích xuất ở thang đo chiều dài hoặc mật độ thoát nước chính xác. Ở đây, chúng tôi đề xuất một tiêu chí để xác định mật độ thoát nước thích hợp mà từ đó có thể trích xuất mạng lưới từ dữ liệu độ cao số... hiện toàn bộ
VNDS: Tập dữ liệu Tiếng Việt cho Tóm tắt Dịch bởi AI
2019 6th NAFOSTED Conference on Information and Computer Science (NICS) - - Trang 375-380 - 2019
Chúng tôi đã chứng kiến nhiều phát triển và nghiên cứu thú vị trong lĩnh vực tóm tắt văn bản. Mặc dù nhiều phương pháp tóm tắt đã được nghiên cứu và áp dụng rộng rãi trong nhiều lĩnh vực tiếng Anh, nhưng lĩnh vực này vẫn còn ở giai đoạn đầu tại Việt Nam do số lượng tài liệu, hệ thống hạn chế, và sự thiếu hụt các tập dữ liệu chuẩn. Được truyền cảm hứng để góp phần tiến bộ trong nghiên cứu ngôn ngữ ... hiện toàn bộ
#Text summarization #dataset #extraction #abstraction
Trích xuất và nhận diện đặc trưng dựa trên quy tắc từ tệp STEP Dịch bởi AI
Student Conference on Research and Development - - Trang 90-93
Việc trao đổi dữ liệu và tích hợp hệ thống đã trở thành những yếu tố quan trọng trong các hệ thống hỗ trợ máy tính nhằm cải thiện năng suất sản xuất. Điều này đã dẫn đến sự phát triển của một định dạng trung gian được sử dụng để tạo điều kiện cho việc trao đổi dữ liệu sản phẩm giữa các thành phần sản xuất. Bài báo này mô tả một phương pháp để trích xuất thông tin đặc trưng từ một tệp STEP và nhận ... hiện toàn bộ
#Feature extraction #Solid modeling #Computer aided manufacturing #Manufacturing processes #Computer integrated manufacturing #Design automation #Shape #Data mining #Design engineering #Production
Xây dựng kho dữ liệu đa phương tiện để tạo hình ảnh từ góc nhìn Dịch bởi AI
Springer Science and Business Media LLC - Tập 1 - Trang 1-16 - 2019
Kho dữ liệu đa phương tiện rất hữu ích cho các hoạt động giáo dục vì nó cung cấp nhiều hình ảnh minh họa giúp quá trình học tập và hiểu văn bản trở nên dễ dàng hơn. Trong bài báo này, chúng tôi đề xuất xây dựng một kho dữ liệu đa phương tiện từ các hình ảnh đã thu thập bằng kỹ thuật trích xuất đối tượng. Sau đó, chúng tôi gán các chú thích tiếng Ả Rập cho tất cả các đối tượng đã được trích xuất. N... hiện toàn bộ
#kho dữ liệu đa phương tiện #trích xuất đối tượng #chú thích tiếng Ả Rập #tạo hình ảnh #hành vi động vật
Chiến lược trích xuất và trình bày dữ liệu y tế Phần 2: Tạo cơ sở dữ liệu tham chiếu bệnh nhân tùy chỉnh theo ngữ cảnh và yêu cầu người dùng Dịch bởi AI
Journal of Digital Imaging - Tập 28 - Trang 249-255 - 2015
Một trong những thách thức lớn nhất mà các chuyên gia chăm sóc sức khỏe phải đối mặt là khả năng truy cập trực tiếp và hiệu quả vào dữ liệu liên quan từ hồ sơ chăm sóc sức khỏe của bệnh nhân tại thời điểm điều trị; điều này là đặc thù cho cả bối cảnh của nhiệm vụ đang được thực hiện và các nhu cầu cũng như sở thích cụ thể của từng người dùng. Trong thực tiễn hình ảnh, sự không hiệu quả tương đối t... hiện toàn bộ
#dữ liệu y tế #cơ sở dữ liệu tham chiếu bệnh nhân #trích xuất dữ liệu #thông tin lâm sàng #tổ chức dữ liệu hình ảnh
Phát hiện sớm lỗi vòng bi dựa trên việc trích xuất đặc trưng đa miền sử dụng bộ phân loại MLP trên bộ dữ liệu NASA IMS
Journal of Military Science and Technology - Tập 106 - Trang 48-54 - 2025
Sự hao mòn và suy giảm hiệu suất của vòng bi trong máy móc công nghiệp dẫn đến chi phí bảo trì tăng cao và thời gian ngừng hoạt động không mong muốn. Nghiên cứu này đề xuất một phương pháp mới kết hợp trích xuất đặc trưng thống kê đa miền (thời gian và tần số) với thuật toán phân cụm K-means thích ứng để nâng cao độ chính xác phát hiện lỗi. Mô hình Multi-Layer Perceptron (MLP) được huấn luyện trên... hiện toàn bộ
#Bearing faults prediction; NASA IMS; MLP model; Multi-domain features; Predictive maintenance.
Trích xuất cấu trúc phân cấp của các nhóm nội dung từ các nền tảng mạng xã hội khác nhau bằng cách sử dụng nhiều siêu dữ liệu xã hội Dịch bởi AI
Multimedia Tools and Applications - Tập 76 - Trang 20249-20272 - 2017
Bài báo này trình bày một phương án mới để truy xuất nội dung mà người dùng mong muốn, tức là các nội dung liên quan đến các chủ đề mà người dùng quan tâm, từ nhiều nền tảng mạng xã hội khác nhau. Trong các phương án truy xuất hiện tại, người dùng đầu tiên chọn một nền tảng cụ thể và sau đó nhập truy vấn vào công cụ tìm kiếm. Nếu người dùng không chỉ định các nền tảng phù hợp với nhu cầu thông tin... hiện toàn bộ
Hướng tới việc Sử dụng Các Tài liệu Khoa học để Tự động Trích xuất Thông tin về Các Bệnh Hiếm Dịch bởi AI
Mobile Networks and Applications - - 2019
Một tỷ lệ nhỏ của dân số bị ảnh hưởng bởi những gì được gọi là bệnh mồ côi hoặc bệnh hiếm. Trên toàn thế giới, có khoảng vài nghìn loại bệnh như vậy. Khi cộng gộp tất cả các cá nhân bị ảnh hưởng, con số này lên tới 10% dân số Hoa Kỳ. Các công trình khoa học về những bệnh này thường được tài trợ kém do thiếu thị trường tiềm năng cho một phương pháp điều trị, điều này có nghĩa là đối với bệnh nhân v... hiện toàn bộ
#bệnh hiếm #tự động trích xuất thông tin #nhận dạng thực thể tên #tần suất thuật ngữ #tài liệu khoa học
Vượt qua sự bùng nổ tổ hợp trong việc trích xuất cấu trúc tương đương Dịch bởi AI
Knowledge and Information Systems - Tập 63 - Trang 2621-2644 - 2021
Việc trích xuất cấu trúc tương đương (ES) cho phép chúng ta xác định các mối quan hệ tương ứng trong một tập dữ liệu hoặc giữa nhiều tập dữ liệu khác nhau. Các ứng dụng của việc trích xuất ES bao gồm phân tích dữ liệu chuỗi thời gian, tiền xử lý trong học giả lập, và tiền xử lý trong học chuyển giao. Hiện nay, phương pháp tìm kiếm theo cặp gia tăng (PIS) là phương pháp nhanh nhất để trích xuất ES;... hiện toàn bộ
#cấu trúc tương đương #trích xuất dữ liệu #tìm kiếm theo cặp gia tăng #bùng nổ tổ hợp #học chuyển giao
Làm biến đổi dữ liệu gợi cảm hứng sinh học cho hình ảnh đa phổ Dịch bởi AI
EURASIP Journal on Advances in Signal Processing - Tập 2011 - Trang 1-10 - 2011
Dữ liệu siêu phổ cho phép xây dựng các mô hình thống kê vững chắc hơn để lấy mẫu các thuộc tính vật liệu so với đại diện màu sắc ba sắc cơ bản tiêu chuẩn. Tuy nhiên, do độ chiều lớn và độ phức tạp của dữ liệu siêu phổ, việc trích xuất các đặc trưng vững chắc (các mô tả hình ảnh) không phải là một vấn đề đơn giản. Do đó, để tạo điều kiện thuận lợi cho việc trích xuất đặc trưng hiệu quả, các kỹ thuậ... hiện toàn bộ
#dữ liệu siêu phổ #trích xuất đặc trưng #bài thích dữ liệu #phân loại vật liệu phi sắt kim #thị giác con người
Tổng số: 24   
  • 1
  • 2
  • 3